Multiple Regression Analysis:Estimation

1. 一点提示:

  • 统计学:SSR(regression)SSE(error),计量经济学:SSE(explained)SSR(residual)
  • 自由度:
    • 伍:
    • 张,南:
    • 张,清:
    • 伍:
    • 陈:
  • SR与MR的比较(相同、不同与区别转化):

  • 回归结果解读:

EViews结果解读:
|500

Stata结果解读:
|500

2. 运用Venn图理解偏回归系数、遗漏变量、多重共线性

(整理自连享会gitee)

两步法
第一步,用该解释变量对其他解释变量回归,得到OLS残差;
第二步,用y对第一步的残差回归。

三步法(与两步法等价):

reg Y X1
predict u, res
reg X2 X1
predict e, res
reg u e

3. 遗漏变量偏误





偏误方向的正负:

Wooldridge 6e, chap3:
(1)Example 3.4 Determinants of College GPA

corr colGPA hsGPA ACT
reg colGPA hsGPA ACT
reg colGPA ACT

(2)Example 3.6 Hourly Wage Equation

(3)Problem8

4. 多重共线性的识别与处理

当存在分组时,如果放入全部组别,Stata会自动删除一个组,以避免完全共线性问题。

识别方法:相关系数矩阵、方差膨胀因子(VIF)estat vif

处理方法:删除或重新定义变量、逐个放入

5. (不要求掌握)高级估计方法:岭回归(Ridge Regression)

  • 大数据表现为“高维数据”,即特征向量的维度远大于样本容量。
  • 在传统实证研究中,样本量一般远大于变量个数:在上市公司的研究中,上市公司的数量大于回归中使用的特征变量个数——使用OLS没有问题
  • 但如果是某研究收集了100个病人的信息,其中每个病人均有2万条基因(即2万个特征变量),需要研究哪些基因导致了某种疾病。在这种高维数据的情况下,如果沿用OLS回归,就非常容易出现变量间的严重多重共线性问题
  • OLS Regression:

  • Ridge Regression:

  • Lasso Regression:

left

Stata command:

  • Ridge Regression: ridgereg, rxridge

  • Lasso Regression: lassopack(lasso2, cvlasso, rlasso)

  • Elastic Net: elasticregress

参考资料: